未来的机器人被认为是执行各种家庭任务的多功能系统。最大的问题仍然存在,我们如何弥合实施方案差距,同时最大程度地减少物理机器人学习,而物理机器人的学习却很有趣。我们认为,从野外人类视频中学习为机器人操纵任务提供了有希望的解决方案,因为互联网上已经存在大量相关数据。在这项工作中,我们提出了Vidbot,这是一个框架,可以使用仅在野外单核RGB的人类视频中获得的3D负担能力,从而实现了零射击机器人的操作。vidbot利用管道从视频中提取显式表示,即从视频中提取3D手轨迹,将深度基础模型与结构上移动技术结合在一起,以在时间上重新构建时间一致,度量标准的3D 3D负担能力表达表示对实现的体现。我们引入了一种粗到精细的负担能力学习模型,该模型首先识别从像素空间中的粗糙动作,然后通过扩散模型进行了良好的互动轨迹,以粗糙的动作为条件,并由测试时间限制,用于上下文感知到的互动计划,对新的场景和EM- em-
主要关键词